The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在本文中,我们介绍了训练两层过度参数的Relu神经网络中动量方法的收敛分析,其中参数的数量明显大于训练实例的参数。动量方法上的现有作品表明,重球方法(HB)和Nesterov的加速方法(NAG)共享相同的限制普通微分方程(ODE),从而导致相同的收敛速率。从高分辨率的动力学角度来看,我们表明HB与NAG在收敛速率方面有所不同。此外,我们的发现为HB和NAG的高分辨率ODES的收敛性提供了更严格的上限。
translated by 谷歌翻译
最近,先驱研究工作提出了大量的声学特征(原木功率谱图,线性频率卷轴系数,恒定的q cepstral系数等),以进行音频深层检测,获得良好的性能,并表明不同的子带对音频有不同的贡献DeepFake检测。但是,这缺乏对子带中特定信息的解释,这些功能也丢失了诸如阶段之类的信息。受合成语音机制的启发,基本频率(F0)信息用于提高综合语音的质量,而合成语音的F0仍然太平均,这与真实语音的F0差异很大。可以预期,F0可以用作重要信息来区分真正的语言和虚假语音,而由于F0的分布不规则,因此不能直接使用此信息。相反,选择了大多数F0的频带作为输入特征。同时,为了充分利用相位和全频段信息,我们还建议使用真实和虚构的频谱图作为互补输入功能,并分别对Discoint子带进行建模。最后,融合了F0的结果,真实和假想的频谱图。 ASVSPOOF 2019 LA数据集的实验结果表明,我们所提出的系统对于音频DeepFake检测任务非常有效,达到等效错误率(EER)为0.43%,几乎超过了所有系统。
translated by 谷歌翻译
尽管配备的远景和语言预处理(VLP)在过去两年中取得了显着的进展,但它遭受了重大缺点:VLP型号不断增加的尺寸限制了其部署到现实世界的搜索场景(高潜伏期是不可接受的)。为了减轻此问题,我们提出了一种新颖的插件动态对比度蒸馏(DCD)框架,以压缩ITR任务的大型VLP模型。从技术上讲,我们面临以下两个挑战:1)由于GPU内存有限,在处理交叉模式融合功能期间优化了太多的负样本,因此很难直接应用于跨模式任务,因此很难直接应用于跨模式任务。 。 2)从不同的硬样品中静态优化学生网络的效率效率低下,这些样本对蒸馏学习和学生网络优化具有不同的影响。我们试图从两点克服这些挑战。首先,为了实现多模式对比度学习并平衡培训成本和效果,我们建议使用教师网络估算学生的困难样本,使学生吸收了预培训的老师的强大知识,并掌握知识来自硬样品。其次,要从硬样品对学习动态,我们提出动态蒸馏以动态学习不同困难的样本,从更好地平衡知识和学生的自学能力的困难的角度。我们成功地将我们提出的DCD策略应用于两个最先进的视觉语言预处理模型,即vilt和仪表。关于MS-Coco和FlickR30K基准测试的广泛实验显示了我们DCD框架的有效性和效率。令人鼓舞的是,与现有的ITR型号相比,我们可以至少加快推断至少129美元的$ \ times $。
translated by 谷歌翻译
自动放射学报告生成对于计算机辅助诊断至关重要。通过图像字幕的成功,可以实现医疗报告的生成。但是,缺乏注释的疾病标签仍然是该地区的瓶颈。此外,图像文本数据偏差问题和复杂的句子使生成准确的报告变得更加困难。为了解决这些差距,我们预定了一个自我引导的框架(SGF),这是一套无监督和监督的深度学习方法,以模仿人类的学习和写作过程。详细说明,我们的框架从具有额外的疾病标签的医学报告中获得了域知识,并指导自己提取与文本相关的罚款谷物视觉特征。此外,SGF通过纳入相似性比较机制,成功地提高了医疗报告生成的准确性和长度,该机制通过比较实践模仿了人类自我完善的过程。广泛的实验证明了我们在大多数情况下我们的SGF的实用性,表明其优于最先进的甲基动物。我们的结果突出了提议的框架的能力,以区分单词之间有罚的粒度视觉细节并验证其在生成医疗报告中的优势。
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
本文旨在通过分析图像文本检索模型的可重复性来为信息检索社区提供对检索学习最新进展的一些思考。由于过去十年中多模式数据的增加,图像文本检索已稳步成为信息检索领域的主要研究方向。许多研究人员使用MS-Coco和FlickR30K等基准数据集训练和评估图像文本检索算法。过去的研究主要集中在绩效上,以多种方式提出了多种最先进的方法。根据他们的断言,这些技术提供了改进的模态相互作用,从而更精确的多模式表示。与以前的作品相反,我们着重于方法的可重复性以及对元素的检查,这些元素通过验证的图像和文本在检索图像和文本时通过预验证和未经预处理的模型提高了性能。更具体地说,我们首先研究了相关的可重复性问题,并解释了为什么我们的重点是图像文本检索任务。其次,我们系统地总结了图像文本检索模型的当前范式以及这些方法的既定贡献。第三,我们分析了预审预测和未进行检索模型的复制的各个方面。为了完成这项工作,我们进行了消融实验,并获得了一些影响检索召回的因素,而不是原始论文中所主张的改进。最后,我们提出了未来检索社区应考虑的一些思考和挑战。我们的源代码可在https://github.com/wangfei-2019/image-text-retrieval上公开获得。
translated by 谷歌翻译
Recent state-of-the-art one-stage instance segmentation model SOLO divides the input image into a grid and directly predicts per grid cell object masks with fully-convolutional networks, yielding comparably good performance as traditional two-stage Mask R-CNN yet enjoying much simpler architecture and higher efficiency. We observe SOLO generates similar masks for an object at nearby grid cells, and these neighboring predictions can complement each other as some may better segment certain object part, most of which are however directly discarded by non-maximum-suppression. Motivated by the observed gap, we develop a novel learning-based aggregation method that improves upon SOLO by leveraging the rich neighboring information while maintaining the architectural efficiency. The resulting model is named SODAR. Unlike the original per grid cell object masks, SODAR is implicitly supervised to learn mask representations that encode geometric structure of nearby objects and complement adjacent representations with context. The aggregation method further includes two novel designs: 1) a mask interpolation mechanism that enables the model to generate much fewer mask representations by sharing neighboring representations among nearby grid cells, and thus saves computation and memory; 2) a deformable neighbour sampling mechanism that allows the model to adaptively adjust neighbor sampling locations thus gathering mask representations with more relevant context and achieving higher performance. SODAR significantly improves the instance segmentation performance, e.g., it outperforms a SOLO model with ResNet-101 backbone by 2.2 AP on COCO \texttt{test} set, with only about 3\% additional computation. We further show consistent performance gain with the SOLOv2 model.
translated by 谷歌翻译
基于添加条件独立性,我们为离散节点变量引入非参数图形模型。添加剂条件独立性是一种三种方式统计关系,其通过满足半石灰阳极公理来利用有条件独立性与有条件的独立性共享类似的性质。基于该关系,我们构建了一种用于离散变量的加性图形模型,其不受诸如诸如Ising模型的参数模型的限制。我们通过惩罚添加精度运算符的离散版本的惩罚估算来开发新的图形模型的估计,并在超高维设置下建立估计器的一致性。随着这些方法的发展,我们还利用离散随机变量的性质来揭示添加剂条件独立性与条件独立性之间的更深层次关系。新的图形模型在某些稀疏条件下减少了条件独立性图形模型。我们进行仿真实验和对HIV抗逆转录病毒治疗数据集的分析,以比较现有的新方法。
translated by 谷歌翻译